Logo LLM Wiki
Back to Concept

Harness Engineering

title Harness Engineering
type concept
category tech
tags AI工程Agent工程实践
created 2026-04-13
sources 5

Harness Engineering

定义

给 AI Agent 套上的那层「操作系统」,通过约束、反馈循环、架构规则、工具链和生命周期管理,让 Agent 能持续、稳定、高质量地工作。由 Mitchell Hashimoto 提出,OpenAI 报告而广为人知。

演进脉络

阶段时间核心关注
Prompt Engineering2022-2024精心构造单次指令
Context Engineering2025动态构建上下文
Harness Engineering2026年2月设计完整控制系统

核心公式

coding agent = AI model(s) + harness

类比:模型是 CPU,Harness 是操作系统。

三大支柱

  1. 上下文工程:AGENTS.md(控制在 60 行以内)、可观测性栈、浏览器 DevTools
  2. 架构约束:分层架构 + 确定性 linter 机械执行(违反则 CI 挂掉)
  3. 熵管理:定期扫描技术债、过时文档、架构漂移

七个配置杠杆

  1. AGENTS.md / CLAUDE.md
  2. 确定性约束(linter/类型检查/结构化测试)
  3. 工具精简
  4. Sub-Agent 隔离
  5. 反馈循环
  6. CI 限速(Stripe 最多两轮)
  7. 垃圾回收

行业案例

  • OpenAI Codex:5个月百万行代码,人类一行没写
  • Stripe Minions:每周 1300 PR 全由 Agent 完成
  • Cursor:每小时 1000 commit
  • Peter Steinberger:单月 6600 commit

争议

Noam Brown(OpenAI)认为 Harness 是「拐杖」,推理模型进化后会淘汰。但护栏悖论:车速越快护栏越重要。

Claude Code 的实践

系统级强提醒引导

System Reminder 动态注入机制wrapInSystemReminder 函数将所有需要注入系统的元信息统一包裹在 ... 标签中,明确传达"这部分内容是系统注入的元信息,而非用户的自然语言输入"。

六大系统内置 Agent Tool

  1. General-Purpose Agent:万能打工人,拥有所有工具的使用权限
  2. Explore Agent:代码库侦察兵,速度优先的只读搜索专家
  3. Plan Agent:软件架构师,制定实施方案
  4. Verification Agent:质量检验官,红蓝对抗,想办法把代码搞崩
  5. Claude Code Guide Agent:Claude Code 使用说明书
  6. Statusline Setup Agent:状态栏安装
  7. Fork Sub Agent:主 Agent 的"分身",继承完整对话历史

精细化的安全体系

  • Permission Engine:规则的精细化权限控制,三行为模型(Allow、Deny、Ask)
  • Sandbox Isolation:操作系统原型的沙箱隔离,基于 bubblewrap (bwrap) 构建
  • 异步生成器驱动的主循环async function* 重构主循环,带来流式处理、协作式控制、优雅的取消机制、有状态的上下文维持
  • 可编程的钩子拦截机制:覆盖 20+ 种关键事件类型,支持阻断执行、动态篡改、反馈注入

有趣的彩蛋

  • Caffeinate:给电脑灌咖啡,防止休眠
  • Anti-Distillation:反蒸馏,防止模型被"偷学"
  • Undercover Mode:卧底模式,隐藏 AI 身份
  • Dogfooding:内部吃狗粮模式
  • 用户情绪辱骂处理:AI 也知道你在骂它
  • 荒诞的加载动词:让等待变得有趣
  • Buddy System:养个电子宠物

能力定位

在构建一个 95 分的 Agent 系统中,Harness Engineering 可以将效果从 8085 分提升到 9095 分。

来源